● Arxiv地址:
ICCV2023 | 当尺度感知调制遇上Transformer,会碰撞出怎样的火花?
01
02
出发点
对于多层级的网络架构来说,由于浅层特征图分辨率大的原因,自注意力的二次复杂性会带来严重的计算负担。因此,如何为浅层stage设计高效的attention计算机制是十分重要的。
回顾以往的大部分Hierarchical(Multi-scale)的模型,以Swin为代表,以及后续的CvT,PvT,Shunted Transformer等等,它们的主要贡献点都是设计出了一种更高效的attention计算单元,比如local attention,lightweight convolution attention等等。
ViT论文中提出,Transformer模型的注意力捕捉依赖关系为,浅层捕捉local信息,深层捕捉global信息,而这种特性在多层级网络架构上也会出现。
作者认为,模拟并建模这种捕捉依赖过渡是重要且有效的。
03
SMT框架算法
多头混合卷积MHMC(Multi-Head Mixed Convolution)
多尺度感知聚合SAA(Scale-Aware Aggregation)
尺度感知调制器SAM(Scale-Aware Modulation)
04
实验
SMT在tiny、small和base规模上都以更低的参数量和计算量达到了更优的性能;
SMT-B在仅仅32.0M和7.7GFlops下就取得了84.3%的精度,甚至比大多数80M和15G以上的模型更好。
当采用ImageNet-22k与大尺度数据预训练之后,SMT-L精度提升到87.1%和88.1%,优于现有的CNN和Transformer模型。特别地,SMT-L用4x低的参数量和3x低的计算量就超过了InternImage-XL(88.0%)
这些结果表明SMT是一个scalability能力很强的模型,在各种尺度参数下都具有优异的性能。
4.2 目标检测实验
在多个检测框架上,包括Mask R-CNN、Cascade R-CNN、RetinaNet、Sparse R-CNN、ATSS和DINO中,SMT都获得了更优的性能。
对于Mask R-CNN,在1x和3x中,SMT-B分别比Swin-B高2.1mAP和1.3mAP,同时参数量只有Swin-B的一半。
对于DINO检测框架,SMT-S仅仅用39.9M的参数量就达到了54.0mAP,超越了现有同等规模大小的其他模型。
05
总结与展望
以视觉Transformer为例,除了在自监督学习等预训练中依旧用着ViT这种plain Vision Transformer,大部分视觉基础模型都以Swin和PvT这种Hierarchical架构为基础设计范式。而这种范式需要解决的问题就是如何在浅层stage中设计更高效的注意力机制计算来解决自注意力的二次复杂性带来的计算负担。是否有更优秀的计算模块能够代替SAM或者是MSA是我们后续需要继续探索的路。
2023年,更多的视觉Transformer模型和CNN基础大模型被提出,它们在各大榜单上你追我赶,可以发现CV领域中CNN依旧有着一席之地。如果Transformer不能够在CV领域完全替代cnn神经网络,那么将两者的优势结合起来是否是更好的选择?因此,我们希望SMT可以作为Hybrid CNN-Transformer方向新的baseline,推动该领域的进步和发展。
● Github地址:
https://github.com/AFeng-x/SMT
● modelscope地址:
https://modelscope.cn/models/PAI/SMT/summary
● 论文链接:
https://arxiv.org/pdf/2307.08579.pdf
● 代码链接:
[1] Scale-Aware Modulation Meet Transformer
[https://arxiv.org/abs/2307.08579]
[2] An image is worth 16x16 words transformers for image recognition at scale
[https://arxiv.org/pdf/2010.11929.pdf]
[2] Focal Modulation Network
[https://arxiv.org/abs/2203.11926]
[3] MixConv: Mixed Depthwise Convolutional Kernels
[https://arxiv.org/abs/1907.09595]
[4] Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[https://arxiv.org/abs/2103.14030]
[5] InternImage: Exploring Large-Scale Vision Foundation Models with Deformable Convolutions
[https://arxiv.org/abs/2211.05778]
更多推荐
点击「阅读原文」免费领取 交互式建模PAI-DSW、模型训练PAI-DLC 5000CU*H计算资源包,以及价值500元模型在线服务 PAI-EAS 抵扣包。